简单的python汽车之家爬虫

最新推荐文章于 2024-04-21 17:44:26 发布

abrams90

最新推荐文章于 2024-04-21 17:44:26 发布

阅读量7.8k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/abrams90/article/details/52857017

版权

本文介绍了一次使用Python编写简单网络爬虫的过程，目标是爬取汽车之家网站上的所有车身外观数据，并按照品牌、车系、年款进行分类。首先，解析品牌列表，接着获取车系及其在售、停产车型的链接。然后，遍历车款，寻找车身外观页面，提取大图链接并下载所需图片。作者提到，动态网页部分使用了PhantomJS处理，尽管存在跨平台问题，代码未使用多线程或类结构。最后，代码已上传至GitHub，欢迎改进。

摘要由CSDN通过智能技术生成

由于工作要求，需要爬取汽车之家的数据，于是动起了脑筋。平时比较习惯用c++，但c++的urllib用过几次后觉得很不方便，于是改用python写。我们这次的目标是爬取汽车之家的所有车身外观的数据，并按照品牌、车系、年款三个等级进行分类。

从哪里下手呢？分期汽车之家源码，发现http://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=2%20&brandId=0%20&fctId=0%20&seriesId=0这个链接下是所有车辆品牌的列表，正和我意。爬取的逻辑很简单，首先读取品牌列表，打开每个品牌的url，通过正则式取得每个车系的链接。第二步，点开每个车系的链接，车系包含两个页面，一个是在售车型，一个是停产车型。再通过正则式找到所有的车型的链接。有一点要注意的是，正则式中年款是一行，一个年款下才是详细的款式，因此这一步要分两小步：取出整个年份多有的车款，再取出最终的车款并添加年份信息。默认页面是在售，因此还要找到停产车型的url并打开。这里用一个dic做容器标签为年款，内容为车款的url。打开停产车型并按照之前的步骤就可以搞定。第三步，逐个打开车款的url,寻找“车身外观”的链接，并打开，这个页面就是就可以找到我们需要的最终图片了。但是注意两点：1、这个页面有两种图片，一个是小图，一个是大图的url。所以还需要找到大图的url并且打开，然后在这个页面里寻找最终的图片链接，并下载。2.、这个页面可能会有“下一页”的情形出现，因此在打开大图链接之前最好把所有的下一页遍历一遍，存到一个list里一起处理。通过以上步骤，建立三级